 Introducere în SPSS Programul SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai utilizate în analiza statistica a datelor Prima versiune a aparut în anul 1968, a evoluat pâna la versiunea 15 si aria de aplicabilitate s-a extins de la versiune la versiune, odata cu modul de operare si cu facilitatile oferite Programul este utilizat astazi în marketing, cercetare experimentala, educatie, sanatate etc În afara de analizele statistice posibile, programul are componente puternice pentru managementul datelor (selectare, reconfigurare, creare de date noi) si pentru documentarea datelor (exista un dictionar metadata, care retine caracteristici ale datelor) Se mai poate adauga flexibilitatea privind tipurile de date acceptate ca si modulul de construire a rapoartelor Acest document se doreste a fi o introducere în operarea SPSS: - interfata, - gestionarea datelor, - analiza statistica elementara Ferestre SPSS Sunt enumerate tipurile de ferestre disponibile în mediul SPSS si se precizeaza functionalitatea lor Data Editor Este fereastra care se deschide automat la pornirea unei sesiuni si care permite editarea datelor, crearea de noi înregistrari, eliminarea unor înregistrari etc Datele pot fi vazute în doua ipostaze: - Activând tab-ul Data View se vor afisa înregistrarile fisierului de date într-o grila, coloanele reprezentând variabilele, liniile fiind cazurile studiate (termenul de cazuri provine evident din practica sociologica/medicala, sunt elementele esantionului studiat) - Activând tab-ul Variable View se vor afisa metadatele asociate variabilelor (numele variabilei, tipul variabilei, indicatii de afisare etc ) Viewer Fereastra Viewer este utilizata pentru afisarea rezultatelor: statistici, tabele, diagrame etc Daca nu exista o fereastra Viewer deschisa, se va crea automat una la prima comanda care produce iesiri Rezultatele afisate pot fi editate, deplasate, eliminate etc într-un mediu similar cu cel din Microsoft Explorer Pivot Table Editor Multe dintre tabelele care contin rezultate sunt de fapt tabele pivot (cuburi OLAP) Acestea pot fi modificate în fereastra Pivot Table Editor (editare text, reconfigurare tabel etc ) activata prin dublu click pe un tabel Apar meniurile corespunzatoare care permit editarea Chart Editor Diagramele care pot fi construite, în general prin comenzile meniului Graphs, pot fi modificate, formatate etc prin comenzile disponibile în Chart Editor O asemenea fereastra este activata la dublu click pe o diagrama dintr-un fisier SPSS de iesire Text Output Editor Textul simplu (neinclus într-un tabel pivot) poate fi modificat, la dublu click pe o intrare text din fisierul de iesire, în fereastra Text Output Editor Se pot modifica în acest fel caracteristicile uzuale ale fontului Syntax Editor SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii Acesta a fost modul initial de operare, astfel încât o serie de prelucrari foarte specializate au ramas disponibile, chiar si în ultimele versiuni, doar prin intermediul comenzilor O fereastra Syntax Editor poate fi deschisa prin File - New/Open - Syntax Comenzile pot fi scrise direct în fereastra Syntax Editor, dar exista si posibilitatea de a înregistra actiunile din interfata utilizator sub forma de comenzi (similar înregistrarii unui macro din Microsoft Office) Comenzile pot fi salvate ca un fisier de comenzi, în vederea reutilizarii Script Editor SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de scriptare, Sax Basic (compatibil Visual Basic for Applications) Se va deschide o fereastra Script Editor prin File - New/Open - Script Pot exista mai multe ferestre de iesire (Viewer), ca si mai multe ferestre de sintaxa (Syntax Editor) Fereastra activa dintr-un grup este indicata de semnul "!" afisat pe bara de stare a ferestrei active, activarea poate fi modificata prin actionarea uneltei din fereastra inactiva Meniuri SPSS Ca în orice aplicatie Windows, multe dintre prelucrarile SPSS pot fi executate prin actionarea comenzilor din meniuri Fiecare fereastra SPSS are propriile meniuri si unelte corespunzatoare Meniuri comune File Este utilizat pentru creare, deschidere, export de fisiere diverse: date, rezultate, comenzi etc Edit Editarile uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri etc în aceeasi aplicatie sau nu View Controleaza modul de afisare a uneltelor, a liniaturii, a identificatorilor de valori (valorile pot avea atasate denumiri explicite) Analyze Este meniul care da acces la procedurile statistice Graphs Permite crearea diagramelor Orice diagrama poate fi modificata (reamintim) prin Chart Editor, afisata la dublu click pe diagrama Utilities Permite afisarea informatiilor despre variabile, definirea unor multimi de variabile etc Window Operatii asupra ferestrelor Help Deschide o fereastra standard de ajutor Data Editor - meniuri specifice Data Se pot realiza modificari globale cum ar fi transpunerea variabilelor si cazurilor, filtrarea cazurilor etc Modificarile sunt temporare daca nu sunt salvate în fisierul initial Transform Permite transformarea unor variabile (cum ar fi recodificare) si obtinerea unor noi variabile prin calcule efectuate asupra variabilelor existente Modificarile sunt temporare pentru sesiunea curenta, daca nu sunt salvate în fisierul initial SPSS - Optiuni Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options Se remarca, pe pagina General, posibilitatea de a mentine un jurnal al actiunilor (Session Journal), de a controla afisarea variabilelor si rezultatelor, de a stabili folderul temporar Celelalte pagini permit stabilirea atributelor implicite pentru diagrame, tablourile pivotante, modul de calcul etc Fisierul de rezultate Rezultatele sunt afisate în fereastra Viewer în ordinea în care sunt apelate procedurile, fiecare apel producând o intrare în arborele de navigare din stânga ferestrei În aceasta fereastra se poate naviga la orice componenta prin operare în arborele de navigare si se pot efectua editari care sa conduca la o iesire clara, usor de interpretat, potrivit necesitatilor prelucrarii Se poate utiliza fereastra Viewer pentru: * Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente (tabele, diagrame), * Modificarea ordinii în care sunt afisate componentele, * Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor, * Copierea/mutarea elementelor între SPSS si alte aplicatii (Word, Excel etc ) Panelul din stânga al ferestrei contine arborele de structura a iesirii Se pot extinde sau restrânge ramuri, se pot deplasa elementele prin drag-and-drop, se poate naviga la un element prin selectarea nodului asociat Pentru copiere între aplicatii se poate utiliza tehnica uzuala Edit - Copy urmat de Edit - Paste/Paste Special Exista însa si posibilitatea de export a iesirii prin * Se activeaza fereastra Viewer si se da comanda File - Export * Se afiseaza dialogul * Se fixeaza în File Type tipul fisierului destinatie; ultimele versiuni accepta si formate xls, doc * Se alege numele si calea fisierului destinatie si ce anume se exporta (întreg documentul cu sau fara diagrame, ce obiecte) Organizarea datelor SPSS utilizeaza datele organizate în linii si coloane: liniile reprezinta cazurile (observatiile), coloanele reprezinta variabilele cercetarii Aparent, grila seamana cu o foaie Excel, dar functionalitatea nu este aceeasi Deoarece prelucrarile statistice se aplica variabilelor, acestea au în SPSS o serie de atribute memorate în fisierul de date si aratate în Data Editor - Variable View: * În SPSS, variabilele sunt denumite, cel putin în versiunile mai vechi, cu identificatori de maxim 8 caractere si care nu se pot termina cu punct (rezervat pentru comenzi de scriptare) Identificatorii sunt formati dupa regulile uzuale (cele mai restrictive sunt interzicerea spatiilor si a caracterelor speciale &, !, ?, ', *) si nu sunt case sensitive * Tipul unei variabile poate fi (semnificatia este evidenta) numeric, comma, dot, scientific notation, date, custom currency sau string Variabilele numerice pot avea cel mult 40 de caractere, dintre care 16 la partea zecimala Variabilele string se pot clasifica în short string (pâna la 8 caractere) sau long string (pâna la 256 caractere) Variabilele short string suporta unele proceduri SPSS * Se poate defini pentru fiecare variabila care este valoarea lipsa (missing value), cu alte cuvinte cum este codificata situatia ca un caz nu contine o valoare pentru variabila respectiva Valorile lipsa pot fi separate în system missing (un spatiu în cazul datelor numerice sau nimic, sirul vid, în toate cazurile) si user missing (cele specificate explicit ca valori lipsa) Variabilele long string nu permit valori user-missing * Pe lânga denumire, care apare ca nume al coloanei, o variabila poate avea atasata o eticheta, label, care este un text explicit privind semnificatia variabilei De exemplu, variabila Nume poate avea ca label textul "Numele si prenumele candidatului" Aceste etichete vor fi utilizate în raportarea rezultatelor * Atributul Width fixeaza numarul maxim de caractere al valorilor string, Columns precizeaza numarul de caractere afisate * Deoarece cazul frecvent întâlnit în prelucrarile statistice este acela în care sunt înscrise în fisierul de date codurile valorilor (de exemplu, 1=elev, 2=student etc ), SPSS permite definirea si memorarea codificarilor utilizate pentru fiecare variabila În fereastra Data Editor, pagina Variable View, activarea celulei din coloana Values conduce la afisarea dialogului Value Labels: Fiecare pereche Value - Value Label este adaugata la lista de coduri prin activarea butonului Add etc Etichetele de valori, împreuna cu etichetele de variabile conduc la o forma explicita a rezultatelor * Ultimul atribut specific al unei variabile este scala de masura utilizata, atribut retinut în coloana Measure din Variable View Denumirile SPSS utilizate sunt scale pentru variabile de interval, ordinal pentru variabile ordinale, nominal pentru variabile nominale Fixarea masurii corecte este esentiala deoarece, reamintim, anumite prelucrari statistice se pot aplica doar unor variabile ordinale, sau de interval etc Filtrarea cazurilor Apare uneori necesitatea de a prelucra doar un subset de înregistrari: pentru a obtine o imagine rapida a unei structuri, pentru a prelucra doar esantionul dintr-o anumita subpopulatie etc SPSS ofera în acest scop comanda Data - Select Cases care produce afisarea dialogului urmator Prin optiunile din grupul Select se fixeaza modalitatea de filtrare Este de remarcat ca prin grupul Unselected Cases Are se poate opta pentru eliminarea efectiva a cazurilor neselectate (optiune nerecomandata) sau pentru filtrarea lor, adica eliminarea este doar logica, o noua selectare cu optiunea All cases le va reactiva În continuare se prezinta doar subdialogul obtinut la optiunea If condition si activarea butonului If În zona de formare a conditiei se pot utiliza denumiri de variabile (aduse din lista din stânga), operatori, functii Vor ramâne vizibile doar înregistrarile pentru care conditia este adevarata Generarea unei noi variabile Din diferite motive, de exemplu necesitatea unei recodificari sau cea a calcularii unei variabile noi ca medie a altor variabile etc , este utila posibilitatea de a genera automat o noua variabila SPSS are doua comenzi principale destinate acestui scop: Transform - Compute si Transform - Recode Prima permite obtinerea unei variabile în urma unui calcul, a doua este pentru recodificare Comanda Compute Prin Transform - Compute se afiseaza dialogul Compute Variable (în versiuni mai noi dialogul este modificat ca aranjare a zonelor): * În zona Target Variable se trece denumirea noii variabile pentru care se poate preciza tipul si eticheta în subdialogul afisat prin actionarea butonului Type & Label * În zona de formare a expresiei de calcul, Numeric Expression, se formeaza expresia de calcul prin utilizarea butoanelor existente pentru operatori si functii sau prin tastare directa Denumirile variabilelor existente pot fi aduse în expresie prin selectare în lista variabilelor, dublu click sau butonul ( * Se poate efectua o filtrare a înregistrarilor (cazurilor) pentru care are loc transformarea daca se actioneaza butonul If Cazurile neselectate vor avea valoarea system-missing pentru noua variabila Comanda Recode Recodificarea unei variabile este utila în doua situatii principale: 1 se transforma o variabila de interval într-o variabila ordinala pentru a o raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale, 2 o variabila string trebuie recodificata cu coduri numerice necesare pentru a putea aplica anumite proceduri SPSS, care cer variabile codificate numeric Recodificarea poate fi în aceeasi variabila, sau într-o noua variabila, cazul discutat aici Prin Transform - Recode - Into Different Variables se afiseaza dialogul în care se transfera variabila numerica pentru care se realizeaza recodificarea din lista variabilelor în lista Numeric Variable ? Output Variable, se completeaza numele si eventual eticheta noii variabile în Output Variable dupa care se actioneaza Change Se pot selecta cazurile pentru care are loc recodificarea prin If Prin actionarea Old and New Values se deschide dialogul Se va selecta în zona Old Value optiunea dorita, se va completa noua valoare în New Value si prin Add se trece corespondenta definita în lista Old?New Noile coduri pot fi de tip string doar daca se activeaza checkbox-ul Output variables are string Prelucrari statistice Prelucrarile statistice din SPSS se realizeaza prin comenzile din meniul Analyze, sau prin executarea comenzilor scrise în fereastra Syntax Editor Deoarece efectuarea unei prelucrari necesita operarea cu un numar de dialoguri specializate, pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrari statistice se prezinta în continuare modul în care se obtin statisticile descriptive Analyze - Frequencies * Se selecteaza Analyze - Descriptive Statistics - Frequencies * Apare dialogul urmator în care se trec variabilele dorite din lista din stânga în lista din dreapta (prin dublu click sau selectare si () * Se marcheaza checkbox-ul Display frequency tables daca se doresc si tabelele de frecvente calculate In caz contrar trebuie sa se opereze cu subdialogurile Statistics, Charts pentru a obtine rezultate * La actionarea butonului Statistics, se afiseaza dialogul Frequencies: Statistics în care se pot activa optiunile corespunzatoare indicatorilor de tendinta centrala, împrastiere sau de caracterizare a curbei distributiei (evident ca anumite statistici se pot calcula doar pentru variabile de tipuri adecvate: interval, ordinal, nominal) * Subdialogul Charts permite construirea unui grafic adecvat pentru un tabel de frecvente Optiunea Histograms - with normal curve afiseaza curba normala suprapusa peste histograma, utila pentru aprecierea departarii de la normalitate * Subdialogul Format gestioneaza modul de afisare a intrarilor tabelului de frecvente în Order by În Multiple variables se poate opta între un format care include toate variabilele selectate (pentru comparare trebuie ca variabilele sa fie de acelasi tip) si un format în care fiecare variabila este raportata separat * Prin OK în dialogul initial se va genera în fereastra Viewer iesirea ceruta Analyze - Descriptives O comanda sintetica pentru statisticile descriptive ale variabilelor continue este Analyze - Descriptive Statistics - Descriptives Parametrii prelucrarii se fixeaza în urmatoarele doua dialoguri Analyze - Crosstabs Obtinerea tabelelor de frecvente încrucisate, utile la studiul asocierii dintre variabile, este gestionata de comanda Analyze - Descriptive Statistics - Crosstabs, care initializeaza dialogul urmator Se trec, prin actionarea butoanelor de trecere, variabilele dorite în lista Rows (tabelele vor avea câte o linie pentru fiecare valoare distincta a variabilelor din aceasta lista) si în lista Columns (tabelele vor avea câte o coloana pentru fiecare valoare distincta a variabilelor din aceasta lista) Se va calcula si afisa câte un tabel de frecvente încucisate pentru fiecare combinatie de variabile, câte una din fiecare lista În cazul în care se doresc frecvente încrucisate pentru trei sau mai multe variabile, se utilizeaza controlul Layer în care se vor trece variabilele de pe pozitia a treia, se trece la layerul urmator si se repeta procedura Subdialogul Statistics permite selectarea statisticilor calculate Este evident necesara cunoasterea tipului variabilelor, pentru a alege statisticile adecvate Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celula a tabelului Se remarca în grupul Percentages posibilitatea de a calcula frecvente relative raportate la totalul de pe linie, de pe coloana sau general De asemenea, prin Count - Expected se pot calcula frecventele implicate în calculul statisticii ?2 Subdialogul Format gestioneaza doar ordinea liniilor functie de valorile care le genereaza 